標簽【Reinforcement learning】

1. 馬爾可夫模型的幾類子模型大家應該還記得馬爾科夫鏈(Markov Chain)，了解機器學習的也都知道隱馬爾可夫模型(Hidden Markov Model，HMM)。它們具有的一個共同性質就 ...

接下來我們回顧一下動態規划算法(DP)和蒙特卡羅方法(MC)的特點，對於動態規划算法有如下特性：需要環境模型，即狀態轉移概率\(P_{sa}\) 狀態值函數的估計是自舉的(bootstr ...

1. 蒙特卡羅方法的基本思想蒙特卡羅方法又叫統計模擬方法，它使用隨機數（或偽隨機數）來解決計算的問題，是一類重要的數值計算方法。該方法的名字來源於世界著名的賭城蒙特卡羅，而蒙特卡羅方法正是 ...

上一篇我們已經說到了，增強學習的目的就是求解馬爾可夫決策過程(MDP)的最優策略，使其在任意初始狀態下，都能獲得最大的Vπ值。(本文不考慮非馬爾可夫環境和不完全可觀測馬爾可夫決策過程(POMDP)中的 ...

機器學習算法大致可以分為三種： 1. 監督學習(如回歸，分類) 2. 非監督學習(如聚類，降維) 3. 增強學習什么是增強學習呢？增強學習（reinforceme ...

在Matlab 上使用 Reinforcement learning 環境搭建在Matlab中安裝Deep Learning Toolbox后安裝Reinforcement Learning T ...

花了一天時間大致了解了強化學習一些經典算法，總結成如下筆記。筆記中出現不少流程圖，不是我自己畫的都標了出處。鋪墊 1. Bellman方程在介紹強化學習算法之前先介紹一個比較重要的 ...

摘要神經網絡在多個領域都取得了不錯的成績，但是神經網絡的合理設計卻是比較困難的。在本篇論文中，作者使用遞歸網絡去省城神經網絡的模型描述，並且使用增強學習訓練RNN，以使得生成得到的模型在驗證集 ...